我们提出了一种多阶段的多代码书(MSMC)方法,用于高性能神经TTS合成。基于矢量定量的,变异的自动编码器(VQ-VAE)的特征分析仪用于编码语音训练数据的MEL频谱图,通过在多个阶段中逐渐减小为MSMC表示(MSMCR),并使用不同的时间分辨率进行逐步降低,并使用多个VQ对其进行量化它们代码书分别。通过最大程度地减少重建均方根误差(MSE)和“三重态损耗”的合并损失,对多阶段预测指标进行了训练,以逐步将输入文本序列映射到MSMCR。在合成中,神经声码器将预测的MSMCR转换为最终的语音波形。拟议的方法是由女演讲者通过16小时的英语TTS数据库进行了训练和测试。拟议的TTS的MOS得分为4.41,其表现优于基线,MOS为3.62。拟议的TTS的紧凑版本仍然可以保留高MOS得分。消融研究表明,多个阶段和多个代码手册都可以有效地实现高TTS性能。
translated by 谷歌翻译
由长期记忆复发网络(LSTM-RNN)和变压器代表的最先进的神经网络语言模型(NNLMS)和变压器变得非常复杂。当获得有限的培训数据时,它们容易过度拟合和泛化。为此,本文提出了一个总体完整的贝叶斯学习框架,其中包含三种方法,以说明LSTM-RNN和Transformer LMS的潜在不确定性。分别使用贝叶斯,高斯过程和变异LSTM-RNN或变压器LMS对其模型参数,神经激活的选择和隐藏输出表示的不确定性。有效的推理方法被用来自动选择使用神经体系结构搜索的最佳网络内部组件作为贝叶斯学习。还使用了最少数量的蒙特卡洛参数样本。这些允许贝叶斯NNLM培训和评估中产生的计算成本最小化。实验是针对两项任务进行的:AMI符合转录和牛津-BBC唇读句子2(LRS2)使用最先进的LF-MMI培训的有效的TDNN系统重叠的语音识别,具有数据增强,扬声器的适应和多种音频,频道横梁成形以进行重叠的语音。基线LSTM-RNN和Transformer LMS具有估计的模型参数和辍学正则化的一致性改进,就困惑性和单词错误率(WER)获得了两项任务。特别是,在LRS2数据上,在基线LSTM-RNN和Transformer LMS中,在贝叶斯NNLMS及其各自的Baselines之间的模型组合后,在基线LSTM-RNN和Transferes LMS上分别获得了最高1.3%和1.2%的绝对降低(相对12.1%和11.3%)。 。
translated by 谷歌翻译
只有单个目标扬声器的语音供参考的单发语音转换(VC)已成为一个热门研究主题。现有作品通常会散布音色,而有关音高,节奏和内容的信息仍然混合在一起。为了进一步删除这些语音组件,有效地执行一声VC,我们采用随机重新采样用于音高和内容编码器,并使用互信息的各种对比对数比率上限和基于梯度反向层的对抗性相互信息学习来确保不同部分在训练过程中仅包含所需的分离表示的潜在空间。 VCTK数据集的实验显示该模型就自然性和智能性方面实现了一声VC的最新性能。此外,我们可以通过语音表示分离分别传递音色,音调和节奏的单发VC的特征。我们的代码,预训练的模型和演示可在https://im1eon.github.io/is2022-Srdvc/上获得。
translated by 谷歌翻译
跨言扬声器风格的转移旨在提取给定参考语音的语音样式,可以在任意目标扬声器的音色中复制。有关此主题的现有方法已经探索了利用语音级样式标签通过全球或本地规模样式表示进行样式转移。但是,有声读物数据集通常以本地韵律和全球类型的形式进行特征,并且很少伴有发言级风格的标签。因此,正确地将阅读方式转移到不同的扬声器上仍然是一项具有挑战性的任务。本文旨在介绍块的多尺度跨言式风格模型,以捕获有声读物的全球类型和本地韵律。此外,通过使用拟议的可切换对手分类器来解开扬声器的音色和样式,提取的阅读样式可适应不同扬声器的音色。实验结果证实,该模型设法将给定的阅读方式转移到新的目标扬声器上。在局部韵律和全球流派类型预测指标的支持下,进一步揭示了所提出的方法在多扬声器有声读物中的潜力。
translated by 谷歌翻译
阿尔茨海默氏病(AD)的早期诊断对于促进预防性护理和延迟进展至关重要。基于语音的自动广告筛选系统为其他临床筛查技术提供了一种非侵入性,更可扩展的替代方案。此类专业数据的稀缺性会导致模型选择和特征学习的不确定性。为此,本文调查了功能和模型组合方法的使用,以改善Bert和Roberta预先训练的文本编码有限数据的域微调的鲁棒性,然后在将结果的嵌入功能馈入后端分类器集合之前通过多数投票制定最终的广告检测决定。在ADRESS20挑战数据集上进行的实验表明,使用模型和功能组合在系统开发中获得了一致的性能改进。使用手册和ASR语音转录本在ADRESS20测试集上分别获得了91.67%和93.75%的最先进的AD检测精度,该准确的准确性是由48位老年人组成的。
translated by 谷歌翻译
阿尔茨海默氏病(AD)的早期诊断对于促进预防性护理以延迟进一步发展至关重要。本文介绍了建立在痴呆症Pitt copus上的基于最新的构象识别系统以自动检测的开发。通过纳入一组有目的设计的建模功能,包括基于域搜索的自动配置特异性构象异构体超参数除外,还包括基于速度扰动和基于规格的数据增强训练的基线构象体系统可显着改善。使用学习隐藏单位贡献(LHUC)的细粒度老年人的适应性;以及与混合TDNN系统的基于两次通行的跨系统逆转。在48位老年人的评估数据上获得了总体单词错误率(相对34.8%)的总体单词错误率(相对34.8%)。使用最终系统的识别输出来提取文本特征,获得了最佳的基于语音识别的AD检测精度为91.7%。
translated by 谷歌翻译
混合动力和端到端(E2E)自动语音识别(ASR)系统之间的基本建模差异在其中创造了巨大的多样性和互补性。本文研究了混合TDNN和构型E2E ASR系统的基于多通的逆转和交叉适应系统组合方法。在多通恢复中,最先进的混合动力LF-MMI训练有素的CNN-TDNN系统具有速度扰动,规格和贝叶斯学习隐藏单元供款(LHUC)扬声器的适应器,以在被恢复之前产生初始的N-tesk输出由扬声器适应构象异构体系统,使用2向跨系统得分插值。在交叉适应中,混合CNN-TDNN系统适用于构象异构体系统的1好的输出,反之亦然。在300小时的总机语料库上进行的实验表明,使用两种系统组合方法中的任何一个得出的组合系统都超过了单个系统。在NIST HUB5'00,RT03和RT03和RT02评估数据。
translated by 谷歌翻译
近年来见证了自动扬声器验证(ASV)的非凡发展。但是,先前的作品表明,最新的ASV模型非常容易受到语音欺骗的攻击,而最近提出的高性能欺骗对策(CM)模型仅专注于独立的反欺骗任务,而忽略了该模型随后的发言人验证过程。如何将CM和ASV集成在一起仍然是一个悬而未决的问题。最近发生了欺骗意识的说话者验证(SASV)挑战,即当共同优化CM和ASV子系统时,可以提供更好的性能。在挑战的情况下,参与者提出的集成系统必须同时拒绝冒名顶替者和欺骗目标扬声器的攻击,这些攻击者直觉有效地与可靠,欺骗的ASV系统的期望相匹配。这项工作着重于基于融合的SASV解决方案,并提出了一个多模型融合框架,以利用多个最先进的ASV和CM模型的功能。拟议的框架将SASV-EER从8.75%提高到1.17 \%,与SASV挑战中最佳基线系统相比,相对改善为86%。
translated by 谷歌翻译
关节特征本质上是声信号失真的不变,并且已成功地纳入了为正常语音设计的自动语音识别(ASR)系统。它们在非典型任务领域(例如老年人和跨语言的言语无序)的实际应用通常受到从目标扬声器收集此类专家数据的困难。本文介绍了一种跨域和跨语性A2A反演方法,该方法利用了A2A模型中24小时TAL Corpus的平行音频,视觉和超声舌成像(UTI)数据,然后进行交叉训练和交叉训练。语言适用于两种语言的三个数据集:英语dementiabank pitt和antonese JCCOCC MOCA老年演讲Corpora;以及英语Torgo违反语音数据,以产生基于UTI的发音特征。 Experiments conducted on three tasks suggested incorporating the generated articulatory features consistently outperformed the baseline hybrid TDNN and Conformer based end-to-end systems constructed using acoustic features only by statistically significant word error rate or character error rate reductions up to 2.64%, 1.92% and数据增强和说话者适应后,绝对4.17%,7.89%和13.28%相对1.21%。
translated by 谷歌翻译
跨语言嵌入可以应用于多种语言的几种自然语言处理应用程序。与先前使用基于欧几里得空间嵌入单词嵌入的作品不同,这篇简短的论文提出了一种简单有效的跨语言2VEC模型,该模型适应了PoinCar \'E Ball of双曲空间的球模型,从 - 英语平行语料库。已经表明,双曲线嵌入可以捕获和保留分层关系。我们在高呼气和类比任务上评估了模型。所提出的模型在跨语言类比任务上与香草word2Vec模型实现了可比的性能,超呼气任务表明,跨语义的poincar \'e Word2vec模型可以从跨语言中捕获潜在的层次结构,而这些文本跨越跨语言,这些结构是从跨语言中捕获的基于欧几里得的Word2Vec表示。我们的结果表明,通过保留潜在的分层信息,双曲线空间可以为跨语性嵌入提供更好的表示。
translated by 谷歌翻译